The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
事实证明,大脑时代是与认知性能和脑部疾病相关的表型。实现准确的脑年龄预测是优化预测的脑时代差异作为生物标志物的必要先决条件。作为一种综合的生物学特征,很难使用特征工程和局部处理的模型来准确利用大脑时代,例如局部卷积和经常性操作,这些操作一次是一次处理一个本地社区。取而代之的是,视觉变形金刚学习斑块令牌的全球专注相互作用,引入了较少的电感偏见和建模长期依赖性。就此而言,我们提出了一个新的网络,用于学习大脑年龄,以全球和局部依赖性解释,其中相应的表示由连续排列的变压器(SPT)和卷积块捕获。 SPT带来了计算效率,并通过从不同视图中连续编码2D切片间接地定位3D空间信息。最后,我们收集了一大批22645名受试者,年龄范围从14到97,我们的网络在一系列深度学习方法中表现最好,在验证集中产生了平均绝对错误(MAE)为2.855,而在独立方面产生了2.911测试集。
translated by 谷歌翻译
半监督学习(SSL)通过利用大量未标记数据来增强有限标记的样品来改善模型的概括。但是,目前,流行的SSL评估协议通常受到计算机视觉(CV)任务的约束。此外,以前的工作通常从头开始训练深层神经网络,这是耗时且环境不友好的。为了解决上述问题,我们通过从简历,自然语言处理(NLP)和音频处理(AUDIO)中选择15种不同,具有挑战性和全面的任务来构建统一的SSL基准(USB),我们会系统地评估主导的SSL方法,以及开源的一个模块化和可扩展的代码库,以对这些SSL方法进行公平评估。我们进一步为简历任务提供了最新的神经模型的预训练版本,以使成本负担得起,以进行进一步调整。 USB启用对来自多个域的更多任务的单个SSL算法的评估,但成本较低。具体而言,在单个NVIDIA V100上,仅需要37个GPU天才能在USB中评估15个任务的FIXMATCH,而335 GPU天(除ImageNet以外的4个CV数据集中的279 GPU天)在使用典型协议的5个CV任务上需要进行5个CV任务。
translated by 谷歌翻译
最近的顺序推荐模型越来越多地依赖连续的短期用户相互作用序列来建模用户兴趣。但是,这些方法引起了人们对短期和长期利益的关注。 (1){\ IT短期}:交互序列可能不是由单一的兴趣引起的,而是来自几个相互交织的利益,即使在短时间内,也导致了它们无法模拟Skip行为的失败; (2){\ it长期}:相互作用序列主要是在离散的间隔内稀疏观察,而不是长期连续的。这使得难以推断长期利益,因为只能考虑到跨序列的利益动态,因此只能得出离散的利息表示。在这项研究中,我们通过学习来解决这些问题(1)短期利益的多尺度表示; (2)长期利益的动态意识表示。为此,我们提出了一个\ textbf {i} nterest \ textbf {d} ynamics建模框架,使用生成\ textbf {n} eural \ textbf {p textbf {p} rocesses,coincined IDNP,以从功能角度来看,以模拟用户兴趣。 IDNP学习了一个全球兴趣函数家族,以定义每个用户的长期兴趣作为功能实例化,从而通过功能连续性表现出兴趣动态。具体而言,IDNP首先将每个用户的短期交互编码为多尺度表示,然后将其汇总为用户上下文。通过将潜在的全球兴趣与用户上下文相结合,IDNP然后重建长期用户兴趣功能,并在即将到来的查询时间段上预测交互。此外,即使相互作用序列受到限制和非连续性,IDNP也可以建模此类兴趣功能。在四个现实世界数据集上进行的广泛实验表明,我们的模型在各种评估指标上的最先进。
translated by 谷歌翻译
通过大量多输入和多重输出实现的许多性能增长取决于发射机(基站)下链路通道状态信息(CSI)的准确性,这通常是通过在接收器(用户终端)估算并馈入的。到发射器。 CSI反馈的开销占据了大量的上行链路带宽资源,尤其是当传输天线数量较大时。基于深度学习(DL)的CSI反馈是指基于DL的自动编码器的CSI压缩和重建,并且可以大大减少反馈开销。在本文中,提供了有关该主题的最新研究的全面概述,首先是在CSI反馈中广泛使用的基本DL概念,然后对一些现有的基于DL的反馈作品进行分类和描述。重点是新型的神经网络体系结构和沟通专家知识的利用来提高CSI反馈准确性。还介绍了有关CSI反馈和CSI反馈与其他通信模块的联合设计的作品,并讨论了一些实际问题,包括培训数据集收集,在线培训,复杂性,概括和标准化效果。在本文的最后,确定了与未来无线通信系统中基于DL的CSI反馈相关的一些挑战和潜在的研究方向。
translated by 谷歌翻译
精神分裂症是一种慢性神经精神疾病,会引起大脑内部的不同结构改变。我们假设将深度学习应用于结构性神经影像学数据集可以检测到与疾病相关的改变,并提高分类和诊断准确性。我们使用单一可用的,常规的T1加权MRI扫描测试了这一假设,我们使用标准后处理方法从中提取了3D全脑结构。然后在三个开放数据集上开发,优化和评估了一个深度学习模型,并对精神分裂症患者进行T1加权MRI扫描。我们提出的模型优于基准模型,该模型还使用3D CNN体系结构对结构MR图像进行了训练。我们的模型几乎能够完美地(ROC曲线下的区域= 0.987),将精神分裂症患者与看不见的结构MRI扫描中的健康对照区分开。区域分析将皮质下区域和心室局部作为最预测的大脑区域。皮层结构在人类的认知,情感和社会功能中起关键作用,这些区域的结构异常与精神分裂症有关。我们的发现证实了精神分裂症与皮质下大脑结构的广泛改变有关,皮层结构信息在诊断分类中提供了突出的特征。总之,这些结果进一步证明了深度学习的潜力,以改善精神分裂症的诊断,并从单个标准的T1加权脑MRI中确定其结构性神经影像学特征。
translated by 谷歌翻译
最近,神经辐射场(NERF)正在彻底改变新型视图合成(NVS)的卓越性能。但是,NERF及其变体通常需要进行冗长的每场训练程序,其中将多层感知器(MLP)拟合到捕获的图像中。为了解决挑战,已经提出了体素网格表示,以显着加快训练的速度。但是,这些现有方法只能处理静态场景。如何开发有效,准确的动态视图合成方法仍然是一个开放的问题。将静态场景的方法扩展到动态场景并不简单,因为场景几何形状和外观随时间变化。在本文中,基于素素网格优化的最新进展,我们提出了一种快速变形的辐射场方法来处理动态场景。我们的方法由两个模块组成。第一个模块采用变形网格来存储3D动态功能,以及使用插值功能将观测空间中的3D点映射到规范空间的变形的轻巧MLP。第二个模块包含密度和颜色网格,以建模场景的几何形状和密度。明确对阻塞进行了建模,以进一步提高渲染质量。实验结果表明,我们的方法仅使用20分钟的训练就可以实现与D-NERF相当的性能,该训练比D-NERF快70倍以上,这清楚地证明了我们提出的方法的效率。
translated by 谷歌翻译
Modern object detectors have taken the advantages of backbone networks pre-trained on large scale datasets. Except for the backbone networks, however, other components such as the detector head and the feature pyramid network (FPN) remain trained from scratch, which hinders fully tapping the potential of representation models. In this study, we propose to integrally migrate pre-trained transformer encoder-decoders (imTED) to a detector, constructing a feature extraction path which is ``fully pre-trained" so that detectors' generalization capacity is maximized. The essential differences between imTED with the baseline detector are twofold: (1) migrating the pre-trained transformer decoder to the detector head while removing the randomly initialized FPN from the feature extraction path; and (2) defining a multi-scale feature modulator (MFM) to enhance scale adaptability. Such designs not only reduce randomly initialized parameters significantly but also unify detector training with representation learning intendedly. Experiments on the MS COCO object detection dataset show that imTED consistently outperforms its counterparts by $\sim$2.4 AP. Without bells and whistles, imTED improves the state-of-the-art of few-shot object detection by up to 7.6 AP. Code is available at https://github.com/LiewFeng/imTED.
translated by 谷歌翻译
本文提出了一种基于逆变器的Volt-VAR控制(IB-VVC)的一步两级深度强化学习(OSTC-DRL)方法。首先,考虑IB-VVC可以作为单周期优化问题进行配制,我们将IB-VVC作为单步马尔可夫决策过程而不是标准的Markov决策过程,从而简化了DRL学习任务。然后,我们设计了单步角色批判性DRL方案,该方案是最近DRL算法的简化版本,它可以成功地避免了Q值高估的问题。此外,考虑VVC的两个目标:最大程度地减少功率损耗并消除违反电压,我们利用两个批评家分别近似两个目标的回报。它简化了每个评论家的近似任务,并避免了评论家学习过程中两个目标之间的相互作用效果。 OSTC-DRL方法集成了单步角色批判性DRL方案和两批评技术。基于OSTC-DRL,我们设计了两种集中式DRL算法。此外,我们将OSTC-DRL扩展到分散的IB-VVC的多代理OSTC-DRL并设计两个多代理DRL算法。模拟表明,所提出的OSTC-DRL具有更快的收敛速度和更好的控制性能,并且多代理OSTC-DRL适用于分散的IB-VVC问题。
translated by 谷歌翻译
神经体系结构搜索(NAS)是自动化有效图像处理DNN设计的强大工具。该排名已被倡导为NAS设计有效的性能预测指标。先前的对比方法通过比较架构对并预测其相对性能来解决排名问题。但是,它仅关注两个相关建筑之间的排名,而忽略了搜索空间的整体质量分布,这可能会遇到概括性问题。提出了一个预测因子,即专注于特定体系结构的全球质量层的神经体系结构排名,以解决由当地观点引起的此类问题。 NAR在全球范围内探索搜索空间的质量层,并根据其全球排名将每个人分类为他们所属的层。因此,预测变量获得了搜索空间的性能分布的知识,这有助于更轻松地将其排名能力推广到数据集。同时,全球质量分布通过根据质量层的统计数据直接对候选者进行采样,从而促进了搜索阶段,而质量层的统计数据没有培训搜索算法,例如增强型学习(RL)或进化算法(EA),因此简化了NAS管道并保存计算开销。拟议的NAR比在两个广泛使用的NAS研究数据集上的最先进方法取得了更好的性能。在NAS-Bench-101的庞大搜索空间中,NAR可以轻松地找到具有最高0.01 $ \ unicode {x2030} $ performance的架构。它还可以很好地概括为NAS Bench-201的不同图像数据集,即CIFAR-10,CIFAR-100和Imagenet-16-120,通过识别每个它们的最佳体系结构。
translated by 谷歌翻译